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摘 要 : 针对 多 数 单 帧 图 像 超 分 辩 率 (single image super-resolution，SISR) 重 建 方法 存在 的 特征 信息 发 据 不 充分 、 特 征 
图 各 通道 之 间 的 相互 依赖 关系 难以 确定 以 及 重建 高 分 状 率 (high resolution，HR) 图 像 时 存在 重 构 误差 等 问题 ， 提 出 了 
基于 深度 残 差 反 投影 注意 力 网 络 的 图 像 超 分 辩 率 (SR) 算 法 。 即 利用 残 差 学习 的 思想 缓解 训练 难度 和 充分 发 据 图 像 的 
特征 信息 ， 并 使 用 反 投 影 学 习 机 制 学 习 高 低 分 辨 图 像 之 间 的 相互 依赖 关系 ， 此 外 引入 了 注意 力 机 制 动 态 分配 各 特征 
图 以 不 同 的 注意 力 资源 从 而 发 据 更 多 的 高 频 信息 和 学 习 特 征 图 各 通道 之 间 的 依赖 关系 。 实 验 结果 表明 了 所 提 方 法 相 
比 于 多 数 单 帧 图 像 超 分 辩 率 方法 ， 不 仅 在 客观 指标 方面 得 到 了 显著 的 提升 ， 而 且 重 建 的 预测 图 像 也 有 具有 更 加 丰富 的 
纹理 信息 。 
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Image super-resolution based on depth residual back projection attention network 


Hu Gaopeng?, Chen Ziliu*, Wang Xiaoming® ®t, Zhang Kaifang?, Huang Zengxi?, Du Yajun? 
(a. School of Computer & Software Engineer, b. Robotics Research Center, Xihua University, Chengdu 610039, China) 


Abstract: Focused on the partly issue that in the process of single-frame image super-resolution reconstruction, such as 
insufficient utilization of feature information during image super-resolution reconstruction, the interdependence between the 
channels of the feature map is difficult to determine, and reconstruction errors existing at high-resolution image reconstructed, 
this paper proposed an single image super resolution methods based on depth residual backprojection attention network. It 
used the residual learning to ease the training difficulty and fully discover the feature information of the image, and used the 
back-projection method to learn the interdependence between the high- and low-resolution images. In addition, it introduced 


d the attention mechanism to assign each feature map with different attention to discover more high-frequency information, and 
a hs learnt the interdependence between the channels of the feature map. The experimental results show that compared with most 
single-frame image super-resolution methods, the proposed method not only has a significant improvement in objective 


Ka indicators, but also the reconstructed predicted image has richer texture information. 

P Key words: attention mechanism; super-resolution(SR); back projection; residual learning; convolutional neural network 

DC 0 “到 者 像 中 的 特征 信息 ， 不 仅 加 快 了 收敛 速度 同时 提升 重建 效果 。 
a Tai 等 人 器 提 出 的 (deep recursive residual network, DRRN) 使 
单 幅 图 像 超 分 辨 率 旨 在 利用 单 张 (low resolution, LR) 图 局 部 残 差 和 全 局 残 差 的 策略 并 引入 递归 的 思想 将 网 络 加 深 3 
像 重 建 HR 图 像 。 其 在 现实 生活 中 得 到 了 广泛 的 应 用 ， 如 利 522, 并 在 增加 深度 的 同时 保持 参数 规模 ， 使 得 重建 效果 得 
用 SR 技术 提高 监控 视频 中 人 脸 的 识别 精度 ， 在 HDTV 中 产 到 了 进一步 的 提升 KimS A fE h HY (deep recursive 
生 更 好 质量 的 视频 和 获得 较 高 分 辨 率 的 医学 图 像 等 。 经 过 不 convolutional network, DRCN) 使 用 递归 的 思想 共享 网 络 结构 
断 的 探索 和 发 展 ， 目 前 已 产生 了 大 量 基于 机 器 学 习 和 深度 学 之 间 的 参数 ， 降 低 了 训练 的 难度 。Dong 等 人 中 提 出 的 (faster 
习 的 SR 方法 。 鉴 于 ， 基 于 深度 学 习 方法 的 明显 优势 ， 本 文 ”SRCNN, FSRCNN)， 在 卷 积 神经 网 络 的 后 端 使 用 反 卷 积 的 方 
主要 研究 基于 深度 学 习 的 SISR 任务 。 法 扩充 图 像 的 尺寸 。 Shi 等 人 外 提出 的 (efficient sub-pixel 
前 基于 深度 学 习 的 SR 算法 按 上 采样 的 方式 可 以 分 为 convolutional neural network, ESPCN)， 使 用 亚 像素 卷 积 方法 
前 端 上 采样 方法 Hm、 后 端 上 采样 方法 9、 渐进 式 上 采样 方 在 网 络 结构 的 后 端 将 学 习 到 的 LR 特征 映射 至 给 定 的 分 辩 率 。 
法 00 和 人 迭代 式 上 采样 方法 5 等 .Dong 等 人 叫 首 次 将 卷 积 神经  FSRCNN 和 ESPCN 等 方法 都 证 明了 后 端 上 采样 策略 有 效 的 
网 络 应 用 于 SR 任务 ， 提 出 了 (super-resolution convolutional 降低 神经 网 络 的 计算 复杂 度 ， 提 高 了 HR 图 像 空间 分 辩 率 。 

neural network, SRCNN) 方 法 ， 即 预先 使 用 双 三 次 插值 的 方法 Lai 等 人 100 提出 的 (Laplacian pyramid Networks, LapSRN) 融 合 
将 LR 图 像 上 采样 至 给 定 的 倍数 ， 然 后 使 用 三 层 的 卷 积 神经 了 拉 普 拉 斯 金字 塔 的 思想 ， 对 于 输入 的 LR 图 像 渐进 式 学 习 
网 络 学 习 其 到 HR 图 像 之 间 的 映射 关系 。 随 后 Kim APE 图 像 的 高 频 部 分 ， 低 频 部 分 只 做 双 三 次 插值 放大 ， 这 种 策略 
出 的 (super-resolution using very deep convolutional network, 不 仅 加 快 了 学 习 进 度 同时 提高 了 重建 效果 。 
VDSR) 引 入 残 差 的 思想 缓解 了 梯度 消失 或 梯度 爆炸 的 问题 ， 随后 Haris 等 人 0 提出 了 (deep back-projection networks 
将 网 络 结构 加 深 至 20 层 , 同时 使 用 较 大 的 感受 野 提取 LR for super-resolution, DBPN), JCf8JHXES TC EXCRERUTF 
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到 像 之 间 的 映射 关系 ， 并 
正 重 构 误差 。 虽 然 该 方法 使 用 了 相互 连 


Pi 


误差 反馈 机 


获 和 
较 深 的 网 络 结构 以 至 


于 重建 的 HR 


阶段 产生 的 特征 


ATRAE 


影 方法 。 


FE HER, 


想 和 注意 力 机 制 ， 以 组 
征 图 之 间 的 相互 依赖 关系 。 本 文 
a) ME TERREA 
该 方法 有 效 的 降低 了 训练 难度 ， 并 且 减 少 了 训练 过 — 文 提 出 了 残 差 反 投 影 注 意 力 网 络 。 
尽 可 能 的 保留 了 高 频 特 征 


2 ”本 文 方法 


图 对 预测 HR 


出 学 习 HR 和 LR 图 像 之 间 虽然 D-DBPNI 方 法 在 各 方面 均 已 取得 了 令 人 满意 的 效 

了 较 好 的 重建 效果 。 但 是 该 方法 使 用 了 果 , 但 是 仍然 存在 部 分 问题 .如 作者 使 用 了 较 深 的 网 络 结构 ， 

四 像 较 平 滑 ， 同 时 忽略 了 “造成 学 习 过 程 中 特征 信息 丢失 和 梯度 弥散 的 问题 。 尽 管 作者 

四 像 的 贡献 值 存在 差异 性 。 ”使 用 了 密集 连接 的 方法 对 DBPN 进行 改进 缓解 了 这 些 问题 并 

[以 上 这 些 问题 本 文 提出 了 残 差 反 投影 注意 力 网 络 ， 即 融 “进一步 加 深 了 网 络 结构 ， 但 是 由 于 密集 连接 是 在 维度 层面 进 
解 高 频 信息 的 丢失 和 学 习 O — 行 特征 图 级 联 ， 所 以 并 未 充分 挖 气 HR 和 LR 空间 的 特征 信 

的 主要 贡献 有 以 下 两 点 。 息 。 同 时 其 平等 的 对 待 各 分 层 的 特征 信息 ， 未 考虑 到 各 分 层 

差 思想 , 提出 了 残 差 反 投 ”特征 之 间 的 依赖 关系 和 各 级 特征 之 间 的 宛 余 信 息 。 鉴 于 此 本 
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通道 ， 自 动 分 配 注意 力 资源 。 
加 更 多 的 高 频 信息 。 
相关 工作 
残 差 学 习 


b) 本 文 引入 并 发 展 了 汶 


在 训练 很 深 的 网 络 结构 时 ， 
所 以 在 网 络 反 向 转播 更 六 


2.1 网 络 结构 


JUS, 提出 了 全 局 注意 力 单 本 文 所 提出 的 残 差 反 投 影 注意 力 网 络 结构 如 图 3 所 示 ， 


参数 时 ， 


即 对 残 差 反 投影 块 各 阶段 产生 的 特征 图 以 及 特征 图 的 各 其 包括 浅 层 特征 提取 单元 、 残 差 反 投影 单元 RBP)、 全 局 注意 
使 得 在 重建 HR 图 像 时 ， 可 以 ” 力 单 元 (GA) 以 及 重建 单元 四 个 模块 。 其 中 在 浅 层 特征 提取 单 


由 


元 中 ， 本 文 使 用 两 层 的 卷 积 层 从 输入 的 LR 图 像 中 提取 得 到 
浅 层 特征 。 假 设 输入 的 LR 图 像 和 预测 的 HR 图 像 分 别 为 
和 ， 浇 层 特征 提取 操作 如 式 (1) 所 示 。 

F, - é(9 (L4) 1) 


于 初始 化 参数 很 接近 于 零 ， 其 中 60) 表示 对 输入 的 LR 图 像 La 的 卷 积 操作 ， 随 后 将 得 到 
容易 导致 梯度 弥散 。 使 得 ”的 浅 层 特征 五 输入 残 差 反 投影 单元 ， 以 发 掘 更 深层 次 的 高 频 


加 深 网 络 结构 不 仅 不 能 提升 网 络 性 能 , 甚至 使 网 络 性 能 更 差 。 ”特征 信息 。 该 过 程 如 式 (2) 所 示 。 

问题 He 等 人 023 提 出 ResNet， 使 用 残 差 学 习 的 思想 组 For = Hrsp (Fo) Q) 
解 了 梯度 弥散 的 问题 。 其 主要 思想 是 假设 设计 的 较 深 的 网 络 其 中 Foe 表示 经 过 残 差 反 投影 单元 得 到 的 特征 ， Has (9) 表示 
结构 , 存在 元 余 层 并 且 元 余 层 需要 完成 恒 等 映 射 ， 即 保证 输 本文 所 提出 的 残 差 反 投影 单元 结构 ， 甚 包含 N 个 由 残 差 连接 
入 输出 完全 相同 。 但 是 学 习 恒 等 映射 存在 着 一 定 的 困难 ， 的 反 投 影 单 元 ， 并 且 每 个 反 投 影 单 元 包括 上 投影 块 和 下 投影 


ResNet 为 了 避免 学 习 恒 等 
网 络 结构 ， 即 H (x)= F (x)+ 
F(x) 为 残 差 项 ， 当 残 差 项 
恒 等 映 射 H(x)=x。 
f(x)=0 更 容易 。 


决 射 的 参数 , 使 用 了 如 图 1 所 示 的 。 块 。 其 利用 相互 连接 的 上 投影 块 和 下 投影 块 学 习 各 种 类 型 上 
x。 其 可 转换 F(x)= 五 (x)-x， 其 中 ”下 采样 算 子 之 间 的 重 构 误差 ， 然后 使 用 误差 反馈 机 制 ， 纠 正 
F(x)=0 时 ,就 可 以 很 容易 的 构造 ”HR 和 LR 特征 信息 之 间 的 映射 关系 。 每 个 投影 单元 都 级 联 了 
相对 于 学 习 恒 等 映 射 五 (x)=x ， 则 学 习 之 前 各 投影 单元 输出 的 HR 特征 信息 , 并 且 引入 了 残 差 思想 ， 


使 用 跳跃 连接 的 方式 来 增强 特征 学 习 ， 具 体 如 3.2 节 介绍 。 
随后 ， 使 用 全 局 注意 力 机 制 单元 学 习 残 差 反 投影 单元 所 

级 联 在 一 起 的 各 投影 单元 产生 的 HR 特征 图 和 特征 图 的 各 个 

通道 的 注意 力 资源 分 配 大 小 ， 如 式 (3) 所 示 。 

Fır = Hoa (For) Q) 


影 单 元 和 重建 层 


的 重 构 误 差 ， 最 


[成 ， 并 引入 密 身 


的 LR 图 像 ， 先 进行 初始 化 特 租 


其 中 Fr 表示 经 过 全 局 注意 力 单元 分 配 注意 力 资源 的 特征 信 


E. Hal) 表示 全 局 注意 力 单元 。 全 局 注意 力 单元 依据 其 输 
图 1 入 的 特征 信息 对 重建 预测 图 像 的 贡献 大 小 和 各 特征 图 之 间 的 
Fig.1 Residual learning 相互 依赖 关系 ， 自 动 对 各 特征 图 以 及 特征 图 的 各 通道 分 配 不 
深度 反 投影 网 络 同 的 注意 力 资源 。 最 后 对 全 局 注意 力 单元 产生 的 特征 信息 
Haris 等 人 HW 提出 了 深度 反 投影 网 络 DBPN, Ht HAR Fr 使 用 单 层 的 卷 积 层 重建 ， 如 式 (4) 所 示 。 
的 反 投影 方法 来 学 习 LR 和 HR 图 像 之 间 的 映射 关系 ， 并 利 Isr = H pec (Far ) = H repan (Hun) (4) 
用 误差 反馈 机 制 纠正 LR 和 HR 图 像 之 间 的 重 构 误 差 。 DBPN 其 中 Hiwrrw (°) 和 Heec (9) 分 别 代 表 残 差 反 投 影 网 络 和 重建 单元 ， 
网 络 结构 主要 是 由 初始 化 特征 提取 单元 、 若 干 个 相连 的 反 投 其 中 重建 单元 是 由 单 层 的 卷 积 层 组 成 。 


连接 策略 将 其 发 展 为 此 外 ， 在 3.1 节 详细 分 析 了 适合 本 文 方法 的 损失 函数 ， 
(Dense DBPN, D-DBPN)， 其 网 络 架构 如 图 2 所 示 。 对 于 输入 ”同时 由 于 1 范 数 本 身 的 稀 政 性 和 在 文献 [20] 中 被 证 明 的 较 快 
FE 提 取得 到 浅 层 特 征 M, AE 。 的 收敛 性 ,故而 选择 Li 范 数 作为 本 文 方法 的 优化 目标 。 假 设 


若干 个 迭代 的 上 下 反 投 影 单元 学 习 HR 和 LR 特征 之 间 ”给 定 的 训练 集 {.7n)% ,其 包含 N 个 LR 输入 图 像 和 对 应 的 HR 


操作 ,其 中 上 采样 和 下 采 档 


后 级 联 先 前 各 阶段 产生 的 HR 特征 图 并 重建 真实 图 像 ， 则 本 文 方法 的 优化 目标 是 最 小 化 5 范 数 损失 函数 ， 


1 图 像 。 其 中 每 个 反 投影 单元 中 都 包含 有 上 采样 和 下 采样 。 ”损失 函数 定义 如 式 (5) 所 示 。 
M E L6) - Y Mana Cac) Hn G) 
í 其 中 0 代表 本 文 网 络 结构 中 所 涉及 的 参数 。 此 外 本 文 使 用 随 
i.. -E 机 梯度 下 降 法 最 小 化 损失 函数 。 由 于 浅 层 特征 提取 单元 和 
S | : 重建 单元 并 无 特殊 之 处 ， 故 随后 本 文 将 重点 介绍 残 差 反 投影 
单元 和 全 局 注意 力 单元 。 


图 2 深度 反 投 影 网 络 2.2 残 差 反 投影 单元 


Fig.2 Schematic diagram of deep back projection network 本 节 将 详细 介绍 残 差 反 投影 单 元 ， 其 包含 了 工人 个 反 投影 
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单元 和 一 个 上 投影 块 ， 且 每 个 反 投 影 单 元 都 包括 个 上 投影 
块 和 一 个 下 投影 块 。 各 个 投影 单元 之 间 采 用 密集 连接 的 方式 ， 
由 于 密集 连接 方式 是 在 维度 层面 拼接 特征 度 ， 所 以 在 每 个 上 
下 投影 块 中 都 使 用 线性 映射 进行 特征 融合 。 此 外 为 了 充分 发 气 
图 像 的 深层 特征 信息 ， 引 入 了 残 差 学 习 的 思想 。 如 式 (6) 所 示 。 
Fprı = Hgpp, (oly (For. s Fori Fpri )， Fwia )) (6) 
其 中 Hauses (9) , vr (9) IL o (s) 分 别 表示 第 t+ 个 反 投影 单元 、 级 联 
函数 和 逐 元 素 求 和 函数 ，For, ，Forwt PU Forsa TARRE t~ t- 
1 和 t-2 个 反 投影 单元 输出 的 深层 特征 信息 ， fw 表示 第 t-l 
个 反 投 影 单 元 输入 的 深层 特征 信息 。 即 使 用 跳跃 链接 的 方法 ， 
TER t-1 个 反 投 影 单元 输入 的 特征 信息 与 级 联 了 先前 t-1 个 反 
投影 单元 的 输出 的 特征 信息 的 逐 元 素 之 和 作为 第 t 个 反 投影 


单元 的 输入 。 
P 1 


V m — y 


RERE) ”7 残 差 反 投 影 单 元 
提单 元 


A 


图 3 深度 残 差 反 投影 注意 力 网 络 结构 
Fig.3 Depth residual backprojection attention network structure 

每 个 反 投影 单元 都 是 由 一 个 上 投影 块 和 一 个 下 投影 块 构 
成 ， 其 中 上 投影 块 和 下 投影 块 的 结构 分 别 如 图 4、5 所 示 。 

a) 上 投影 块 。 上 投影 块 的 输入 是 级 联 了 此 投影 单元 之 前 
各 投影 单元 中 下 投影 块 的 输出 ， 即 第 t 个 上 投影 块 的 输入 是 
[2.7] ,随后 使 用 级 联 层 将 该 投影 单 块 的 输入 级 联 在 一 起 ， 
此 外 为 了 防止 维度 爆炸 ， 采 用 了 卷 积 核 大 小 为 1*1 的 卷 积 层 
降低 特征 图 的 维度 从 而 获得 特征 矿 ' ,随后 对 进行 上 采样 
和 下 采样 操作 分 别 得 到 和 五， 并 计算 p RI Ds ZLDRI B VA 2E 
ei ,并 使 用 误差 纠正 HR 特征 和 LR 特征 之 间 的 映射 关系 。 


b) 下 投影 块 。 下 投影 块 的 输入 同样 是 级 联 了 此 投影 单元 
之 前 各 投影 单元 中 上 投影 块 的 残 差 学 习 的 结果 ， 对 输入 的 特 
征 信息 依次 进行 级 联 、 线 性 映射 得 到 特征 图 #7 , 随后 依次 进 
行 下 采样 及 上 采样 操作 并 计算 重 构 误 差 er ,并 使 用 次 重 构 误 
差 指 导 重 建 LR 特征 图 。 
上 投影 块 
p E 
SO a 
图 4 上 投影 块 结构 
Fig.4 Up-projection block 
下 投影 块 
DEI ILE 
a. 25 ie R E 
T 


图 5 下 投影 块 结构 
Fig.5 Down-projection block 
2.3 全 局 注意 力 单元 
在 重建 预测 图 像 时 ， 使 用 各 投影 单元 中 上 投影 块 的 输出 
结果 。 但 是 实际 各 个 阶段 学 习 到 的 特征 信息 具有 个 别 差异 性 ， 


F: 基于 深度 残 差 反 投影 注意 力 网 络 的 图 像 超 分 状 率 
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TER] X-[H,—H,], 其 包含 了 C=mxn 个 空间 大 小 为 HxWw 的 特 
征 图 ， 即 第 t 个 反 投影 单元 输出 的 HR 特征 图 ,的 维度 大 小 
为 m。 对 于 输入 大 小 为 及 xWxC 的 特征 信息 ， 本 文 使 用 全 局 
池 化 操作 进行 逐 通道 的 统计 分 析 ， 其 定义 如 式 (7) 所 示 。 


“Ho (a) =y ARG) (0) 


其 中 (i) 表示 第 c 张 特征 图 心力 处 的 特征 信息 ， 二 表示 对 
第 c 张 特征 图 的 统计 。 然 后 对 统计 后 的 特征 信息 依次 使 用 卷 
积 层 、ReLU 激活 函数 、 卷 积 层 对 通道 信息 进行 分 析 , 最 后 使 
用 门 控 函数 计算 各 通道 分 配 的 注意 力 资源 ， 并 将 计算 得 到 的 
注意 力 分 配 值 逐 元 素 的 和 输入 的 特征 图 进行 乘积 操作 。 整 个 
过 程 可 以 公式 化 为 


X = f(W,8(W,Z)-X (8) 
其 中 56(.) 和 £C) 分 别 表 示 ReLU 激活 函数 和 Sigmoid 门 控 函 
A, W 和 W 分 别 代 表 相 应 卷 积 层 的 权重 矩阵 ，X RI x r5 
a H xW x C 输入 的 特征 信息 和 分 配 过 注意 力 资源 的 
特征 信息 , z 表示 平均 池 化 而 得 的 全 局 特征 信息 。 


mi “加 
注意 力 结 


Fig.6 Schematic Pn of 2 attention unit 


3 ”实验 
本 文 使 用 


DIV2K03 数 据 集中 的 800 张 图 片 训练 所 提出 


的 网 络 结构 ， 此 外 选用 四 个 公开 的 标准 数据 集 测 试 本 文 的 算 
法 ， 选 用 的 四 个 标准 数据 集 分 别 是 : Set5049 、Set1405、 


BSD10009、Urban100071， 并 使 用 峰值 信 噪 比 (Peak Signal-to- 
Noise Ratio, PSNR) 和 结构 相似 性 (Structural SIMilarity index, 
SSIMD)W5I 的 取 值 作为 对 预测 结果 的 客观 评判 标准 。 在 实验 中 
对 于 不 同 的 上 采样 尺度 ， 采 用 了 不 同 大 小 的 卷 积 核 进行 反 卷 
积 操作 。 其 中 在 缩放 因子 为 2 时 , 采用 了 stride=2，padding -2 
和 卷 积 核 大 小 为 6x6 的 卷 积 层 ， 在 缩放 因子 为 4 时 stide=4， 
padding =2 卷 积 核 核 大 小 为 8x8 ， 缩 放 因 子 为 8 时 stride=8 , 
padding = 2 卷 积 核 核 大 小 为 12x12 。 此 外 初始 化 学 习 率 为 1E- 
4， 并 且 在 迭代 10s SERE PH REGAT 5x10 次 学 习 率 减少 10 倍 。 
HIMEN Li 范 数 损 失 函 数 和 动量 为 0.9 的 Adam RAES, 
优化 本 文 算法 .所 有 的 实验 均 部 署 在 Nvidia TITAN X (Pascal) 
GPU 以 及 Intel(R) Xeon(R) W-2125 CPU 环境 下 。 
3.4 范 数 损失 函数 和 MSE 损失 函数 结果 对 比 

损失 函数 代表 着 网 络 模型 的 学 习 目 标 ， 所 以 损失 函数 的 
选择 通常 对 实验 结果 具有 很 大 影响 。 在 SISR 任务 中 通常 使 
用 (mean squared error, MSE) 损 失 函 数 和 范 数 损失 函数 , 其 中 
MSE 损失 函数 更 倾向 于 获得 更 高 的 峰值 信 噪 比 (PSNR), 但 是 
近 些 年 研究 者 9 发 现 使 用 五 范 数 可 以 加 速 网 络 模型 的 收敛 。 
为 了 选择 出 更 适合 本 文 算 法 的 损失 函数 , 本 文 分 别 使 用 MSE 
损失 函数 和 工 范 数 损失 函数 构造 模型 [ 和 模型 工 。 为 了 保证 
对 比 实 验 结果 的 公平 性 ， 模 型 [ 和 模型 开 使 用 相同 的 网 络 深 
度 和 相同 大 小 的 卷 积 核 , 以 及 其 余 设置 也 都 相同 (缩放 因子 为 
4, 有 反 投影 单元 为 6)。 将 使 用 相同 训练 集 获 得 的 网 络 模型 [ 和 
模型 I 工 ， 分 别 在 Set5 和 Set14 数据 集 上 进行 测试 ， 测 试 结果 
如 图 7、8 所 示 。 


并 且 相 同 阶段 的 不 同 通道 之 间 特 征 信息 也 具有 差别 ， 导 致 在 
最 后 重建 预测 图 像 时 其 的 贡献 也 各 不 相同 。 针 对 这 些 问 题 本 
文 引 入 全 局 注意 力 机 制 ， 即 为 投影 单元 产生 的 HR 特征 信息 
的 各 通道 都 分 配 以 不 同 的 注意 力 , 从 而 发 掘 更 多 的 细节 信息 。 

全 局 注意 力 单元 的 结构 如 图 6 所 示 ， 其 中 @ 表示 逐 元 素 
相 乘 。 该 模块 的 输入 是 级 联 了 各 个 反 投影 单元 输出 的 HR RE 


从 图 7、8 可 以 发 现在 Set5 ARRE, EH L 范 数 损失 
函数 作为 优化 目标 的 平均 PSNR 和 SSIM 比 使 用 MSE 损失 
函数 作为 优化 目标 的 平均 PSNR 和 SSIM 高 0.10dB,0.0007。 
在 Set14 数据 集 上 ， 使 用 五 范 数 损失 函数 作为 优化 目标 的 平 
均 PSNR 和 SSIM 比 使 用 MSE 损失 函数 作为 优化 目标 的 平 


— 
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均 PSNR 和 SSIM 高 0.73dB 和 0.0227。 综 上 所 述 , 本 文 更 适 


Tue H] L 范 数 损失 函数 作为 优化 目标 。 


Set5 数 据 集 
Set14 数 据 集 
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图 7 范 数 损失 和 MSE 损失 在 不 同 数据 集 上 的 PSNR 
Fig.7 Comparison of SSIM between L -norm loss and 
MSE loss under different datasets 
a k d 

9.84 UL 范 数 损失 
Set5 数 据 集 TUN 
Set14fT18 
图 8 范 数 损失 和 MSE 损失 在 不 同 数据 集 上 的 SSIM 


Fig.8 Comparison of SSIM between L -norm loss and 
MSE loss under different datasets 


3.2 ”模型 分 析 


本 文 提 出 的 深度 残 差 反 投 影 注 意 力 网 络 不 仅 融合 了 残 差 
思想 ， 而 且 结 合 了 注意 力 机 制 以 提高 预测 图 像 的 质量 。 为 了 


验证 网 络 结构 中 每 部 分 的 有 效 性 ， 本 文通 过 依次 删除 残 差 思 


想 和 注意 力 机 制 的 方式 ， 构 造 了 具有 相同 网 络 深度 和 相同 大 
小 的 卷 积 核 的 不 同 模型 分 别 记 为 模型 II、 模 型 IV 和 模型 V 。 


是 本 文 提出 的 只 融合 了 全 


模型 II、 模 型 IV 和 模型 V 均 是 使 用 
放 因 
其 实验 结果 如 表 1 所 示 。 


升 。 当 缩放 医 


BOXE 


其 中 模型 三 是 文献 [11] 中 提出 的 D-DBPN 网 络 结构 ， 模 型 IV 
局 注意 力 机 制 的 模型 ， 模 型 V 既是 
本 文 提出 的 融合 了 残 差 思想 和 全 局 注意 力 机 制 的 网 络 模型 。 

T 6 个 反 投 影 块 ， 且 当 缩 
子 为 2.4 和 8 时 , 卷 积 核 大 小 分 别 为 6x6、8x8 和 12x12 ， 


从 表 1 中 ， 本 文 可 以 发 现 模 型 入 和 模型 V 相对 于 模型 II 


来 说 ， 预 测 图 像 在 PSNR 和 SSIM 两 个 指标 上 均 


DEZ 


子 为 4 时 , 模型 入 和 模型 V 在 Set5 数据 集 上 的 


PSNR 和 SSIM 相对 模型 HH 分 别提 高 了 1.46dB,0.039 和 
1.38dB,0.038， 在 Set14 数据 集 上 分 别提 高 了 0.82dB,0.087 和 


1.55dB,0.108 . 当 缩 放 因 子 为 8 由 


| ， 模 型 IV 和 模型 V 在 SetS 数 


据 集 上 的 PSNR FI SSIM 相对 模型 三 分 别提 高 了 0.79dB,0.076 
和 1.27dB,0.081， 在 Set14 数据 集 上 分 别提 高 了 1.09dB,0.145 


和 1.13dB,0.146。 另 外 本 文 还 可 以 发 现 只 


有 在 Set5 数据 集 上 


及 影 注意 力 网 络 的 图 像 超 分 装 率 


DBPNII 
10 所 示 。 


其 中 图 


9、10 分 别 是 
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主流 算法 包括 SRCNNI,VDSRDJ,FSRCNNIS,LapSRNU0，D- 
,EDSRP?I, MemNetD21， 


RCANP3， 实 验 结果 如 图 9、 
当 缩放 因子 为 4 和 8 时 ， 本 文 


算法 和 部 分 主流 算法 在 Sets 数据 集 上 测试 时 的 参数 规模 对 


比 结果 。 


从 图 


中 本 文 可 以 发 现在 缩放 攻 


子 为 4 时 ， 本 文 算法 在 


PSNR 指标 上 高 出 次 优 算法 0.81dB 的 情况 下 ,参数 规模 仍然 


维持 在 小 于 次 优 算法 的 参数 规模 。 当 缩放 因 
所 增加 ， 但 是 PSNR 指标 
法 0.88dB。 总 体 来 说 ， 本 文 算法 在 PSNR 指标 上 获得 比较 优 


算法 的 参数 规模 


子 为 8 时， 本 文 
乃 然 高 于 次 优 算 


异 的 表现 的 情况 下 ， 参 数 规 模 仍然 维持 在 较 客观 的 水 平 上 。 


9 set5 数据 集 下 各 主流 算法 的 


EDSR 
. 


4 
K 


x4 模型 的 参数 规模 对 比 


Fig.9 Parameter scale comparison of x4 model of 


mainstream algorithms under set5 dataset 


© RC 


* ours 


AN e D-DBPN EDSR 


数 规模 CK) 10 


10 set5 数据 集 下 各 主流 算法 的 x8 模型 的 参数 规模 对 比 


Fig. 10 Parameter scale comparison of x8 model of 


mainstream algorithms under set5 dataset 


3.4 对 比 先进 算法 


为 了 验证 本 文 算法 的 有 效 ; 
分 主流 算法 在 不 同 数据 集 上 的 预测 结果 进行 对 


性 ， 本 节 分 别 对 本 文 算 法 和 部 
比分 析 。 实 验 


采用 的 四 个 公开 数据 集 分 别 是 
发 布 的 Set5 和 
有 黄 等 人 提供 
自然 图 像 。 对 


RCANP?I SCN P3 SRMDNFP/I 


Set14, 伯克利 大 学 发 布 的 BSDS100 以 及 最 近 
的 Urban100 数据 集 ， 它 们 包含 了 不 同 场景 的 
比 的 部 分 主流 算法 包括 SRCNNU, VDSRUI, 
FSRCNNU!, LapSRNU?I, D-DBPNI 


由 比 利 埃 大 学 法 国 贝 尔 实验 室 


1 EDSR, MemNet!, 
和 RDNP9 等 ， 分 别 对 比 这 些 


主流 算法 在 不 同 数据 集 上 缩放 
的 峰值 信 品 比 (PSNR)、 结 构 相 
果 。 此 外 实验 使 


且 缩 放 因 


子 为 4 时 ， 模 型 V 预测 图 像 的 质量 低 于 模型 IV。f 


AE 


其 余 的 实验 结果 均 表 明 模 型 V 的 实验 结果 


验 结果 ， 所 以 本 文 认为 模型 V 总 体 上 要 优 了 
表 1 


I 和 I 


优 于 模型 IV 的 实 
FF 模型 IV 。 
分 别 在 Set5 和 Set14 数据 集 上 对 比 模型 工 、 


Tab. 1 Performance of model I, II and M on 
the Set5 and Set14 datasets 
id "T" 全 局 注意 ES n 
倍数 力 机 制 psnr ssim psnr ssim 
x x 31.99 0.803 28.52 0.778 
X4 x ~ 33.45 0.932 29.34 0.865 
v v 33.37 0.931 30.07 — 0.886 
x x 26.86 0.773 2492 0.638 
X8 x 4 27.65 0.849 26.01 0.783 
4 J 28.13 0.854 26.05 0.784 


3.3 ”参数 规模 对 比 


为 了 检验 本 文 算法 参数 规模 的 大 小 ， 将 本 文 算法 的 参数 


规模 和 部 分 主流 算法 的 参数 规模 进行 对 比 实验 ， 选 取 的 部 分 


行 实验 ， 以 保证 实验 的 公平 性 


实验 结果 分 别 如 表 2~4 所 示 ， 其 分 别 是 缩放 因 


4 和 8 时， 部 分 主流 算法 在 不 


取 值 .从 表 2 中 可 以 发 现在 缩放 因子 为 2 


数据 集 上 未 取得 最 优 的 PSNR 


了 最 优 的 PSNR, 其 中 在 BSDS100 数据 集 上 相对 于 其 他 主流 
算法 提升 的 最 明显 ， 相 对 于 RCAN 提高 了 2.93dB， 此 外 在 
SSIM 指标 上 本 文 算法 均 达 到 了 最 优 值 。 观 察 表 3、4 本 文 可 
， 本 文 算法 无 论 是 在 PSNR 指 
标 和 SSIM 指标 上 均 取 得 了 最 优 的 表现 ， 其 中 也 是 在 


以 发 现在 缩放 因子 为 4 8 时 


丸子 取 值 分 别 为 2、4 和 8 时 


公开 的 代码 ， 


以 形 (SSIMD) 以 及 主观 的 视觉 效 
使 用 相同 的 训练 集 重 新 进 
原则 。 


— 


TAR 
同 数据 集 上 的 PSNR 和 SSIM 
时 , 本 文 算法 在 Set5 
， 但 是 在 其 余数 据 集 上 均 取 得 


n 


BSDS100 数据 集 上 ， 取 得 了 较 大 的 提升 。 故 此 ， 本 文 算法 在 


总 体 上 取得 了 优异 的 表现 ， 


且 缩放 因子 越 大 , 优势 越 明 显 。 
本 文 从 数据 集 Set5. Setl4, BSDS100 和 Urban100 中 分 


HÆR Y “women”, “comic”, “119082”, “img 037” 等 图 


像 ， 对 比分 析 本 文 算 法 和 部 分 主流 算法 在 缩放 因 
了 清晰 的 观察 到 
果 进 行 部 分 区 域 放大 ， 其 实验 


重建 结果 的 视觉 体验 。 此 外 为 
比 结果 ， 本 文 对 重建 得 到 的 结 


子 为 4 时 的 
守信 息 的 对 
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录用 定稿 3] 8 IIS, 


结果 分 别 如 图 11-14 所 示 。 从 图 中 可 以 发 现 Bicubic 插值 法 
重建 的 图 像 几乎 观察 不 到 轮廓 等 细节 信息 , VDSR 和 LapSRN 
算法 重建 的 结果 虽然 得 到 了 些许 的 提升 ， 但 是 仍然 缺少 了 部 
分 的 细节 信息 。EDSR、D-DBPN 和 RCAN 等 算法 重建 的 结 
果 获 得 了 较 好 的 视觉 体验 ， 但 是 相对 于 本 文 算法 依然 缺少 锐 
利 的 边缘 信息 。 综 上 无 论 在 客观 指标 上 ， 还 是 在 主观 视觉 
验 上 本 文 算法 都 取得 了 优异 的 表现 。 
表 2 各 SISR 算法 的 x2 模型 在 不 同 数据 集 上 的 表现 


Tab.2 Average performance of x2 models of 


various SISR algorithm on different data sets 

Set5 Set14 BSDS100 
PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM 
Bicubic 33.66 0.9299 30.24 0.8688 29.56 0.8431 26.88 0.8403 
SRCNN 36.66 0.9542 32.45 0.9067 31.36 0.8879 29.50 0.8946 
FSRCNN 37.05 0.9560 32.66 0.9090 31.53 0.8920 29.88 0.9020 
VDSR 37.53 0.9590 33.05 0.9130 31.90 0.8960 30.77 0.9140 
LapSRN 37.52 0.9591 33.08 0.9130 31.08 0.8950 30.41 0.9101 
MemNet 37.78 0.9597 33.28 0.9142 32.08 0.8978 31.31 0.9195 
EDSR 38.11 0.9602 33.92 0.9195 32.32 0.9013 32.93 0.9351 
SRMDNF 37.79 0.9601 33.32 0.9159 32.05 0.8985 31.33 0.9204 
D-DBPN 38.09 0.9600 33.85 0.9190 32.27 0.9000 32.55 0.9324 
RDN 38.24 0.9614 34.01 0.9212 32.34 0.9017 32.89 0.9353 
RCAN 38.27 0.9614 34.12 0.9216 32.41 0.9027 33.34 0.9384 
本 文 算法 38.12 0.9663 34.52 0.9329 35.34 0.9595 33.38 0.9565 


Urban100 


表 3 各 SISR 算法 的 x4 模型 在 不 同 数据 集 上 的 表现 


Tab.3 Average performance of x4 models of various SISR algorithm 


on different data sets 
Set5 Setl4 BSDS100 Urban100 

PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM 

Bicubic 28.42 0.8104 26.00 0.7027 25.96 0.6675 23.14 0.6577 
SRCNN 30.48 0.8628 27.50 0.7513 26.90 0.7101 24.52 0.7221 
FSRCNN 30.72 0.8660 27.61 0.7550 26.98 0.7150 24.62 0.7280 
VDSR 31.35 0.8830 28.02 0.7680 27.29 0.0726 25.18 0.7540 

LapSRN 31.54 0.8850 28.19 0.7720 27.32 0.7270 25.21 0.7560 
MemNet 31.74 0.8893 28.26 0.7723 27.40 0.7281 25.50 0.7630 
EDSR 32.46 0.8968 28.80 0.7876 27.71 0.7420 26.64 0.8033 

SRMDNF 31.96 0.8925 28.35 0.7787 27.49 0.7337 25.68 0.7731 
D-DBPN 32.47 0.8980 28.82 0.7860 27.72 0.7400 26.38 0.7946 
RDN 33.36 0.9313 28.81 0.7871 27.72 0.7419 26.61 0.8028 

RCAN 32.63 0.9002 28.87 0.7889 27.77 0.7436 26.82 0.8087 

本 文 算法 33.44 0.9319 29.35 0.8644 30.92 0.8944 27.49 0.8777 


法 


表 4 各 SISR 算法 的 x8 模型 在 不 同 数据 集 上 的 表现 


Tab.4 Average performance of x8 models of 


various SISR algorithm on different data sets 

Set5 Set14 BSDS100 
PSNR SSIM PSNR SSIM PSNR SSIM 
Bicubic 24.40 0.6580 23.10 0.5660 23.67 0.5480 
SRCNN 25.33 0.6900 23.76 0.5910 24.13 0.5660 
FSRCNN 20.13 0.5520 19.75 0.4280 24.21 0.5680 21.32 0.5380 
SCN 25.59 0.7071 24.02 0.6025 24.30 0.5698 21.52 0.5571 
VDSR 25.93 0.7240 24.26 0.6140 24.49 0.5830 21.70 0.5710 
LapSRN 26.15 0.7380 24.35 0.6200 24.54 0.5860 21.81 0.5810 
MemNet 26.16 0.7414 24.38 0.6199 24.58 0.5842 21.89 0.5825 
EDSR 26.96 0.7762 24.91 0.6420 24.81 0.5985 22.51 0.6221 
D-DBPN 27.21 0.7840 25.13 0.6480 24.88 0.6010 22.73 0.6312 
RCAN 27.31 0.7878 25.23 0.6511 24.98 0.6058 23.00 0.6452 
本 文 算法 28.19 0.8555 26.09 0.7840 27.64 0.8248 23.58 0.7805 


Urban100 
PSNR SSIM 
20.74 0.5160 
21.29 0.5440 
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(e)EDSR (f)D-DBPN (g)RCAN 
图 11 Set5 数据 集 women 重建 结果 对 比 


Fig. 11 


(h) 本 文 


Comparison of reconstruction results of 


the women in the Set5 dataset 


| EN. n 
(f)D-DBPN (g)RCAN 
图 12 Setl4 数据 集 comic 重建 结果 对 比 


Fig. 12 Comparison of reconstruction results of the comic in Set14 dataset 


(e)EDSR 


(c)VDSR (d)LapSRN 


(e)EDSR (f)D-DBPN (g)RCAN WEK 
图 13 BSDS100 数据 集 119082 重建 结果 对 比 
Fig. 13 Comparison of reconstruction results of 

the 119082 in the BSDS100 dataset 


(b)Bicubic (c)VDSR 


(hdc 
重建 结果 对 比 


(DD-DBPN (SRCAN 


(e)EDSR 
图 14 Urban100 数据 集 img 037 


Fig. 14 Comparison of reconstruction results of 
the img 037 of in Urban100 dataset 


4 ”结束 语 
本 文 提 出 了 深度 残 差 反 投影 全 局 注意 力 网 络 ， 


主要 使 


录用 定稿 胡 高 胸 ， 等 : 基于 深度 残 差 反 投影 注意 力 网 络 的 图 像 超 分 辩 率 

用 和 迭代 反 投 影 的 方法 并 融合 了 残 差 学 习 和 全 局 注意 力 机 制 ， UT, USA: IEEE, 2018: 1664-1673 

缓解 了 学 习 过 程 中 特征 信息 利用 不 充分 和 高 频 信 息 丢 失 等 问 [12] He K, Zhang X, Ren S, Sun J: Deep residual learning for image 
题 ， 同 时 充分 利用 了 特征 图 之 间 的 差异 性 ， 使 得 重建 预测 图 recognition. [C]// Proceeding of the 2016 IEEE Conference on Computer 
像 时 发 掘 更 有 用 的 高 频 信 息 。 实 验 结果 证 明了 ， 本 文 算法 在 Vision and Pattern Recognition (CVPR) . Las Vegas, NV, USA: IEEE, 
PSNR 指标 和 SSIM 指标 上 的 优越 性 ， 同 时 得 到 的 预测 图 像 2016: 770-778 

细节 = 息 更 加 年 富 视觉 体验 也 更 好 ò [13] Timofte R, Agustsson E, Van G L, et al. NTIRE 2017 challenge on single 
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